为什么上传GEO前需要用md5值验证文件完整性?

您所在的位置:网站首页 linux 计算文件的md5值 为什么上传GEO前需要用md5值验证文件完整性?

为什么上传GEO前需要用md5值验证文件完整性?

2023-04-25 05:22| 来源: 网络整理| 查看: 265

图3. seqkit校验结果

如图3所示,上面的为正确的fastq格式,校验成功,输出Q30,reads数等信息;而下面的为错误的fastq格式,报“序列长度和质量分数长度不同”的错误,表明该文件是一个无效的fastq文件。出现无效fastq文件的原因主要是“数据传输不完整”,当然也包括其他人为错误。例如miRNA测序一般将150 bp裁剪为50 bp,新手可能仅切了序列行,而忘了切质量分数行。 来自GEO工作人员的常见报错反馈包括:invalid compressed data--format violated,无效的压缩数据 – 违反格式invalid compressed data--crc error,无效的压缩数据 – 循环冗余校验码 (CRC)出错invalid compressed data--length error,无效的压缩数据 – 长度错误

md5值

我们一般使用文件的md5值来验证文件的完整性,以判断文件是否被篡改。MD5是报文摘要算法5(Message-Digest Algorithm 5)的缩写,该算法对任意长度的信息逐位进行计算,产生一个二进制长度为128位(十六进制长度就是32位)的“指纹”(或称“报文摘要”),不同的文件产生相同的报文摘要的可能性非常小。

一般情况下,下机fastq文件的md5值会与原始fastq文件一起返回给用户,因此,如果下机文件的md5值和你重新计算的md5值完全匹配,则说明你收到的文件跟下机文件是一致的。如果两者不一致,则说明你收到的文件可能出错了,需要立即找原始数据提供者重新提供。一般会有一个缓冲期(例如1个月),过了缓冲期才会删掉数据。

计算md5值

我们可以借助第三方软件,或者使用系统命令来计算文件的md5值。

Win10系统:Certutil -hashfile sample.fastq.gz md5

Linux系统:md5sum sample.fastq.gz

Mac系统:md5 sample.fastq.gz

注意:

1)md5sum 是校验文件内容,与文件名是否相同无关

2)md5sum值逐位校验,所以文件越大,校验时间越长

图4. Fastq文件及md5值

情况1:左侧的fastq文件有效,且左右两侧md5值相等,确定右侧的fastq也有效

情况2:左侧的fastq文件无效,虽然左右两侧md5值相等,但两侧的fastq均无效

情况3:左侧的fastq文件有效,左右两侧的md5值不相等,确定右侧的fastq无效

因此,我们在拿到原始数据,或者将原始数据上传GEO数据库前,首先需要校验fastq文件的正确性(即文件是否符合fastq文件的标准)并验证文件的完整性(从上游数据提供者那里拿到的数据是否完整)。这样双重保险,避免文件损坏,实验白做。

微生信助力高分文章,用户74000+,引用1000+



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3